Fouille de données du génome à l'aide de modèles de Markov cachés

نویسندگان

  • Sébastien Hergalant
  • Bertrand Aigle
  • Pierre Leblond
  • Jean-François Mari
چکیده

Résumé. Nous décrivons un processus de fouille de données en bioinformatique. Il se traduit par la spécification de modèles de Markov cachés du second-ordre, leur apprentissage et leur utilisation pour permettre une segmentation de grandes séquences d’ADN en différentes classes qui traduisent chacune un état organisationnel et structural des motifs d’ADN locaux sous-jacents. Nous ne supposons aucune connaissance a priori sur les séquences que nous étudions. Dans le domaine informatique, ce travail est dédié à la définition d’observations structurées (les k-d-k-mers) permettant la localisation en contexte d’irrégularités, ainsi qu’à la description d’une méthode de classification utilisant plusieurs classifieurs. Dans le domaine biologique, cet article décrit une méthode pour prédire des ensembles de gènes co-régulés, donc susceptibles d’avoir des fonctions liées en réponse à des conditions environnementales spécifiques.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Champs de Markov conditionnels pour le traitement de séquences

Résumé. Les modèles conditionnels du type modèles de Markov d’entropie maximale et champs de Markov conditionnels apportent des réponses aux lacunes des modèles de Markov cachés traditionnellement employés pour la classification et la segmentation de séquences. Ces modèles conditionnels ont été essentiellement utilisés jusqu’à présent dans des tâches d’extraction d’information ou d’étiquetage m...

متن کامل

Construction d'attributs pour l'extraction de connaissances à partir de séquences biologiques

Résumé. Dans cet article nous étudions un problème de prétraitement de données : la construction d’attributs décrivant des séquences biologiques. Afin d’assurer l’extraction de connaissances à partir de séquences biologiques (ADN, ARN et protéines), tout système de fouille de données (datamining) se confronte à la représentation non habituelle de ce type de données. Une séquence biologique est ...

متن کامل

Un système de gestion de documents hétérogènes dédiés au patrimoine archéologique et gérés sur le réseau Internet. Le cas de l'épave étrusque du Grand Ribaud

HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...

متن کامل

Analyse et application de modèles de régression pour optimiser le retour sur investissement d'opérations commerciales

Résumé. Les activités de négoce de matériaux sont un marché extrêmement compétitif. Pour les acteurs de ce marché, les méthodes de fouille de données peuvent s’avérer intéressantes en permettant de dégager des gains de rentabilité importants. Dans cet article, nous présenterons le retour d’expérience du projet de fouille de données mené chez VM Matériaux pour améliorer le retour sur investissem...

متن کامل

Construction et analyse de résumés de données évolutives : application aux données d'usage du Web

Résumé. La manière dont une visite est réalisée sur un site Web peut changer en raison de modifications liées à la structure et au contenu du site lui-même, ou bien en raison du changement de comportement de certains groupes d’utilisateurs ou de l’émergence de nouveaux comportements. Ainsi, les modèles associés à ces comportements dans la fouille d’usage du Web doivent être mis à jour continuel...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005